Alexandre Lebas - Océane Deletrez

Rappel du sujet

This case study is on using decision trees to predict customer response and optimize profit. To improve customer contact process and maximize the amount of profit, decision trees were built with R to model customer contact history and predict the response of customers. And then the customers can be prioritized to contact based on the prediction, so that profit can be maximized, given a limited amount of time, cost and human resources. (File Cup98LRN, whippet, directory Project – B - 2019) Keywords: Decision tree, prediction, profit optimization Main steps:

Données du jeu KDD Cup 1998

On remarque que dans les 2 jeux de données il y a plus de 400 variables. Entre le jeu dé d'entrainement et le jeu de validation il y a deux variables en plus ce qui signifie qu'il y a deux valeurs à prédire. Ce qui semble logique serait de prévoir si une personne a donné ou non et combien elle a donné.

On remarque que la majorité des personnes (Quasi-95%) font partie de la classe 0.

Regardons maintenant dans le nombre de personnes qui ont donné (c'est-à-dire que TARGET_D est supérieur à 0) les statistiques concernant leurs dons.

On remarque que les dons sont compris entre 1 et 100 mais 75% font moins de 20€ et les restes sont des dons entre 20 et 100.

Prenons maintenant une représentation graphique pour mieux voir ces chiffres.

Sur le graphique ci-dessus on voit justement qu'une très grande partie des dons font moins de 55€s seuls deux dons sont aux dessus un don à 60 et celui à 100.

Essayons un graphique plus précis pour savoir quelle est la somme la plus donnée.

On arrondit car le don fait par la personne n'est pas forcément entier (11€50 par exemple). On remarque dans ce graphique que la somme la plus donnée et 10€ ce graphique semblé aussi en accord avec celui sur 75% des dons font moins de 20% et très peut font plus de 50 €.

Exploration des données

Sur toutes les variables ci-dessous une attire notre attention la variable HIT en effet elle semble avoir quelques valeurs aberrantes bien aux dessus de toutes les valeurs (nous allons donc remplacer ces valeurs par la moyenne des valeurs non aberrantes).

Après ces modifications nous pouvons considérer ces données comme bonnes.

Maintenant étudions l'âge des personnes qui ont donné.

On remarque que la majorité des personnes qui donne ont entre 30 et 95 ans. Après avoir étudié l'âge des personnes qui ont donné intéressons-nous aux sexes des personnes.

Tous les sexes sont représentés dans les dons.

L'une des dernières choses à faire et de regarder la corrélation entre les variables et notamment des variables avec les dons effectués pour savoir si une variable influe bien plus que les autres sur les dons ou si toute la variable joue a peu près le même rôle).

On remarque qu'il y a des variables plus corrélés que les autres les deux premières TARGET B et D ne compte pas car ce sont les classes. Mais on voit que certaines ont des variables très corrélé (taux à 0.35 par exemple) là ou d'autres variables sont presque à 0.

Entrainement de l'arbre

Utilisons pour ça la librairie Party

Évaluation du modèle

Conclusion

On remarque que notre modèle n'est pas du tout optimisé dû à certaines choses comme le manque d'informations sur ceux que représentent les variables. Le manque de temps pour analyser précisément toutes les données et trouver des modèles plus performants, la non-possibilité d'inclure toutes les variables pour entrainer l'arbre cela aurait donné un arbre plus performant sur les predictions.

Il faudrait essayer d'utiliser d'autres méthodes de régression pour comparer leurs performances par rapport aux arbres.